Télélecteurs, vous êtes les bienvenus dans cette nouvelle édition.
Cette semaine, format un peu différent: on va faire des maths !
Parce que oui, téléverset, ce n'est pas que de la littérature. C'est de l'analyse, des contraintes, des explorations à la limite de la connaissance stylistique.
On fixe tout d'abord un alphabet $\Sigma={a, \dots, z}$.
La distance de Levenshtein entre deux mots $u$ et $v$ est définie comme le nombre minimal d'insertions, de suppressions et de remplacement de lettres pour passer de $u$ à $v$.
On dira que $u$ et $v$ sont voisins de levenshtein si leur distance de levenshtein est de 1.
Par exemple, "trappe" et "frappe" sont voisins de levenshtein.
On s'intéresse au graphe non orienté $G=(E, A)$ défini par: - $E$ est l'ensemble des mots de la langue française selon le dictionnaire de Gutenberg - $A$ est l'ensemble des couples qui sont voisins de levenshtein
Avec un peu de magie python, on peut s'amuser à analyser ce graphe.
Quelques statistiques sur ce graphe:
(nombre de sommets) | (nombre d’arrêtes) | (mots de longueur 1) | (mots de longueur 25) |
---|---|---|---|
323423 | 590417 | a, y | anticonstitutionnellement |
Ce qui est beaucoup plus intéressant, c'est la structure du graphe: en particulier ses composantes.
Si on fait un parcours en profondeur depuis le mot "bienvenu", on obtient:
bienvenu
bienvenue
bienvenues
Pas très intéressant ...
Mais si on commence à partir de "salut":
salut
saut
sut
su
sus
us
use
se
set
et
ete
te
tes
es
est
...
Et cette suite de mots est looooongue ...
En fait, cette composante du graphe contient 132022 mots, c'est à dire 40% de tous les mots !
Pour comparaison, la deuxième plus grosse composante contient seulement 264 mots, et la troisième 180 - pour votre culture, elle va de "touffes" à "estouffade".
Si vous vous ennuyez pendant les vacances, choisissez donc deux mots au hasard, et voyez si il existe un chemin entre les deux, en changeant une lettre à la fois. La réponse est probablement oui.
Petit exemple:
travail
tramail
tramait
tramant
ramant
lamant
lacant
vacant
vacante
vacance
vacances
Le plus court chemin entre "travail" et "vacances" est de longueur 11.
C'est honorable, mais on peut faire mieux. Beaucoup mieux.
À l'aide d'un parcours en largeur, on peut facilement savoir quels mots sont éloignés les uns des autres.
J'ai même trouvé quels sont les deux mots les plus éloignés dans le graphe de levenshtein: il s'agit de ...
tremblotames et contrebasson, éloignés d'une distance ahurissante de 55.
Le chemin est le suivant:
tremblotames
tremblotates
tremblotantes
tremblotants
tremblotant
tremblotat
tremblotas
tremblotes
tremblates
tremblantes
tremblants
tremblant
tremblait
tremblais
remblais
semblais
semblas
sembles
semples
temples
tempes
trempes
trompes
troupes
croupes
croutes
croutas
croutais
coutais
contais
contrais
conterais
contrerais
contrefais
contrefis
contredis
contredise
contredire
contretire
contretira
contretirat
contretirant
contretirent
contredirent
contrediront
contredirons
contredisons
contredisions
contredissions
contrefissions
contrefassions
contrepassions
contrepassons
contrebassons
contrebasson
Ce poème expérimental s'intitule "le périple tremblant"
Nous tremblotames. Vous tremblotates. Nos mains: toutes tremblotantes. Nos pieds: tous tremblotants.
tremblotant, tremblotat, tremblotas, tremblotes.
Mais plus que le froid, la peur: nous tremblates, âmes tremblantes, tous tremblants
Le tremblant tremblait, et toi aussi tu tremblais:
Un abris: tu semblais mourir, tu semblas survivre, tu sembles aller mieux.
À la corde, sur le métier à tisser: des semples. Un métier sacré: des temples ? Aie ! Mes tempes !
Tu trempes, mais tu te trompes. Et les troupes sur tes croupes, sur tes croutes. Sur la plaie, tu croutas, tu croutais, tu coutais.
Pour moi tu contais.
À l'escrime, tu contrais. Si je vole, tu conterais, ou tu contrerais ?
Tu contrefais. Tu contrefis. Tu contredis que je contredise n'importe quoi qui puisse contredire.
Je contretire, il contretira, contretirat, contretirant, contretirent
contredirent, contrediront, contredirons, contredisons, contredisions.
contredissions atomiques, contrefissions nucléaires.
Nous contrefassions ? Non, des contrepassions.
Mais passons. Contrepassons.
Contrebassons
debut
debat
ebat
bat
fat
fit
fin
À la prochaine pour de nouvelles explorations stylistiques !